\cleardoublepage

{
    \sectionnonum{附录}

    
\subsection{奖励系数设置}

为了引导强化学习过程中的策略优化，本文为各项子奖励设置了合适的奖励系数与松弛参数，具体如下表所示：

\begin{table}[H]
\centering
\begin{tabular}{|c|c|c|}
\hline
\textbf{奖励项} & \textbf{奖励系数} & \textbf{松弛/偏移参数} \\
\hline
线速度跟踪（lin\_Vel） & 0.4 & 松弛系数: 0.1 \\
角速度跟踪（ang\_Vel） & 0.12 & 松弛系数: 0.4 \\
基座姿态惩罚（bRot） & 0.12 & 松弛系数: 0.1 \\
基座角速度惩罚（bTwist） & 0.05 & 松弛系数: 0.4 \\
基座高度惩罚（bHgt） & 0.03 & 松弛系数: 0.02 \\
能量利用效率惩罚（cotr） & 0.05 & 松弛系数: 0.3 \\
支撑脚滑动惩罚（eVel） & 0.20 & 松弛系数: 0.12 \\
悬空脚接触惩罚（eFrc） & 0.15 & 松弛系数: 0.1 \\
足底力变化惩罚（ipct） & 0.03 & 松弛系数: 0.28 \\
动作平滑性惩罚（smth） & 0.02 & 松弛系数: 0.5 \\
关节速度惩罚（jVel） & 0.02 & 松弛系数: 8 \\
髋关节角度惩罚（hipZ） & 5.0 & -- \\
双足距离惩罚（foot\_position） & 0.02 & 松弛系数: 0.005，偏移中心: 0.1175 \\
\hline
\end{tabular}
\caption{奖励系数与松弛参数配置}
\label{tab:reward-coefficients}
\end{table}

另根据机器人双腿弯曲时的站姿，设定基座高度目标为 base\_height\_target = 0.31\,\text{m}。


    % End of appendix
    \removeappendixsubsecmajornumbering
}